Model Selection

Multimodal Visual Encoding

# Multimodal Visual Encoding

Openvision Vit Base Patch16 224

OpenVision is a fully open, cost-effective family of advanced visual encoders focused on multimodal learning.

Multimodal Fusion

Openvision Vit Huge Patch14 224

OpenVision is a fully open, cost-effective advanced vision encoder family focused on multimodal learning.

Multimodal Fusion

Openvision Vit Large Patch14 336

OpenVision is a fully open, cost-effective family of advanced visual encoders, specifically designed for multimodal learning.

Image Enhancement

Openvision Vit Large Patch14 224

OpenVision is a fully open, cost-effective family of advanced vision encoders focused on multimodal learning.

Multimodal Fusion

Openvision Vit Base Patch8 224

OpenVision is a fully open, cost-effective family of advanced visual encoders focused on multimodal learning.

Image Classification

Openvision Vit Base Patch8 160

OpenVision-ViT-Tiny is a fully open, cost-effective advanced visual encoder, part of the OpenVision family, focusing on multimodal learning.

Image Classification

Openvision Vit Small Patch8 224

OpenVision is a fully open, cost-effective advanced vision encoder family focused on multimodal learning.

Openvision Vit Tiny Patch8 384

OpenVision is a fully open, cost-effective advanced visual encoder family focused on multimodal learning.

Image Enhancement

Openvision Vit Tiny Patch8 224

OpenVision is a fully open, cost-effective advanced vision encoder family focused on multimodal learning.

Multimodal Fusion

Openvision Vit Tiny Patch16 384

OpenVision is a fully open, cost-effective advanced vision encoder family focused on multimodal learning.

Openvision Vit Tiny Patch16 160

OpenVision is a fully open, cost-effective advanced visual encoder family focused on multimodal learning.

Multimodal Fusion

Vit So400m Patch16 Siglip Gap 384.v2 Webli

A ViT image encoder based on SigLIP 2, utilizing global average pooling, with the attention pooling head removed, suitable for image feature extraction tasks.

Image Classification

Vit So400m Patch16 Siglip Gap 256.v2 Webli

ViT image encoder based on SigLIP 2, using global average pooling, with attention pooling head removed, suitable for image feature extraction tasks.

Vit So400m Patch16 Siglip 512.v2 Webli

A vision Transformer model based on SigLIP 2, designed for image feature extraction and suitable for multilingual vision-language tasks.

Vit So400m Patch16 Siglip 384.v2 Webli

Vision Transformer model based on SigLIP 2, designed for image feature extraction, pre-trained on the webli dataset

Vit So400m Patch16 Siglip 256.v2 Webli

SigLIP 2 ViT model, containing only the image encoder part for image feature extraction, trained on the WebLI dataset.

Vit So400m Patch14 Siglip Gap 378.v2 Webli

Vision Transformer model based on SigLIP 2 architecture, pre-trained on WebLI dataset, with attention pooling head removed and global average pooling applied

Image Classification

Vit So400m Patch14 Siglip Gap 224.v2 Webli

A ViT image encoder based on SigLIP 2, employing global average pooling with the attention pooling head removed, suitable for image feature extraction tasks.

Image Classification

Vit So400m Patch14 Siglip 378.v2 Webli

Vision Transformer model based on SigLIP 2, designed for image feature extraction, trained on the webli dataset

Vit So400m Patch14 Siglip 224.v2 Webli

A Vision Transformer model based on SigLIP 2 architecture, designed for image feature extraction and pretrained on the webli dataset.

Image Classification

Vit Large Patch16 Siglip Gap 512.v2 Webli

A vision Transformer model based on SigLIP 2 architecture, designed for image feature extraction, using Global Average Pooling (GAP) instead of attention pooling head

Image Classification

Vit Large Patch16 Siglip Gap 384.v2 Webli

A vision Transformer model based on the SigLIP 2 architecture, featuring a Global Average Pooling (GAP) variant that removes the attention pooling head, suitable for image feature extraction tasks.

Vit Large Patch16 Siglip Gap 256.v2 Webli

A ViT image encoder based on SigLIP 2, employing global average pooling with the attention pooling head removed, specifically designed for image feature extraction.

Vit Large Patch16 Siglip 512.v2 Webli

ViT image encoder based on SigLIP 2, designed for timm, suitable for vision-language tasks

Image Classification

Vit Large Patch16 Siglip 384.v2 Webli

A vision Transformer model based on the SigLIP 2 architecture, designed for image feature extraction, pretrained on the webli dataset

Vit Large Patch16 Siglip 256.v2 Webli

Vision Transformer model based on SigLIP 2 architecture, designed for image feature extraction, trained on the webli dataset

Image Classification

Vit Giantopt Patch16 Siglip Gap 384.v2 Webli

A ViT image encoder based on SigLIP 2, utilizing global average pooling and removing the attention pooling head, suitable for image feature extraction tasks.

Image Classification

Vit Giantopt Patch16 Siglip Gap 256.v2 Webli

SigLIP 2 ViT image encoder, using global average pooling, with attention pooling head removed, designed specifically for timm

Image Classification

Vit Giantopt Patch16 Siglip 384.v2 Webli

ViT image encoder based on SigLIP 2, designed for timm, suitable for vision-language tasks

Image Classification

Vit Giantopt Patch16 Siglip 256.v2 Webli

Vision Transformer model based on SigLIP 2 technology, focused on image feature extraction

Vit Base Patch32 Siglip Gap 256.v2 Webli

A vision Transformer model based on SigLIP 2, using Global Average Pooling (GAP) instead of attention pooling head for image encoding

Vit Base Patch32 Siglip 256.v2 Webli

Vision Transformer model based on SigLIP 2 architecture, designed for image feature extraction

Vit Base Patch16 Siglip Gap 512.v2 Webli

A ViT image encoder based on SigLIP 2, using global average pooling with the attention pooling head removed, suitable for image feature extraction tasks.

Image Classification

Vit Base Patch16 Siglip Gap 384.v2 Webli

ViT image encoder based on SigLIP 2, using Global Average Pooling (GAP) instead of attention pooling head, suitable for image feature extraction tasks.

Image Classification

Vit Base Patch16 Siglip Gap 256.v2 Webli

A ViT image encoder based on SigLIP 2, employing global average pooling with the attention pooling head removed, suitable for image feature extraction.

Multimodal Fusion

Vit Base Patch16 Siglip Gap 224.v2 Webli

Vision Transformer model based on SigLIP 2, utilizing global average pooling for image features

Image Classification

Vit Base Patch16 Siglip 512.v2 Webli

Vision Transformer model based on SigLIP 2, designed for image feature extraction, pre-trained on the webli dataset

Vit Base Patch16 Siglip 384.v2 Webli

Vision Transformer model based on SigLIP 2, designed for image feature extraction, pre-trained on the webli dataset

Vit Base Patch16 Siglip 256.v2 Webli

A ViT image encoder based on SigLIP 2 for extracting image features, supporting multilingual vision-language tasks.

Vit Base Patch16 Siglip 224.v2 Webli

ViT model based on SigLIP 2, focused on image feature extraction, trained on the webli dataset

Featured Recommended AI Models

AIbase

Empowering the Future, Your AI Solution Knowledge Base

English 简体中文繁體中文にほんご

© 2025AIbase